Evolución de las Arquitecturas de Modelos de Lenguaje Grandes: De BERT a GPT y T5

La Tríada de las Arquitecturas Transformer

La evolución de los Modelos de Lenguaje Grandes se caracteriza por un Cambio de Paradigma: transición de modelos específicos para tareas a un "Preentrenamiento Unificado" donde una sola arquitectura se adapta a múltiples necesidades de procesamiento del lenguaje natural.

En el núcleo de este cambio está el mecanismo de Autoatención, que permite a los modelos ponderar la importancia de diferentes palabras en una secuencia:

$$Atención(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

1. Solo Codificador (BERT)

Mecanismo:Modelado de Lenguaje con Máscara (MLM).
Comportamiento: Contexto bidireccional; el modelo "ve" toda la oración al mismo tiempo para predecir palabras ocultas.
Mejor para:Comprensión del Lenguaje Natural (NLU), análisis de sentimientos y reconocimiento de entidades nombradas (NER).

2. Solo Decodificador (GPT)

Mecanismo:Modelado Autoregresivo.
Comportamiento:Procesamiento izquierda-derecha; predice el siguiente token basándose estrictamente en el contexto previo (máscara causal).
Mejor para:Generación de Lenguaje Natural (NLG) y escritura creativa. Este es el fundamento de los modelos de lenguaje grandes modernos como GPT-4 y Llama 3.

3. Codificador-Decodificador (T5)

Mecanismo:Transformador de Transferencia Texto-a-Texto.
Comportamiento:Un codificador procesa la cadena de entrada en una representación densa, y un decodificador genera la cadena objetivo.
Mejor para:Traducción, resumen y tareas de paridad.

Punto Clave: El Dominio del Decodificador

La industria se ha consolidado en gran medida en torno a decodificador único arquitecturas debido a sus leyes de escalabilidad superiores y habilidades emergentes de razonamiento en escenarios de cero muestra.

Impacto de la Ventana de Contexto en VRAM

En modelos de decodificador único, el caché KVcrece linealmente con la longitud de la secuencia. Una ventana de contexto de 100k requiere significativamente más VRAM que una ventana de 8k, lo que dificulta el despliegue local de modelos de largo contexto sin cuantización.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Why did the industry move from BERT-style encoders to GPT-style decoders for Large Language Models?

Decoders scale more effectively for generative tasks and follow-up instructions via next-token prediction.

Encoders cannot process text bidirectionally.

Decoders require less training data for classification tasks.

Encoders are incompatible with the Self-Attention mechanism.

Question 2

Which architecture treats every NLP task as a "text-to-text" problem?

Encoder-Only (BERT)

Decoder-Only (GPT)

Encoder-Decoder (T5)

Recurrent Neural Networks (RNN)

Challenge: Architectural Bottlenecks

Analyze deployment constraints based on architecture.

If you are building a model for real-time document summarization where the input is very long, explain why a Decoder-only model might be preferred over an Encoder-Decoder model in modern deployments.

Step 1

Identify the architectural bottleneck regarding context processing.

Solution:
Encoder-Decoders must process the entire long input through the encoder, then perform cross-attention in the decoder, which can be computationally heavy and complex to optimize for extremely long sequences. Decoder-only models process everything uniformly. With modern techniques like FlashAttention and KV Cache optimization, scaling the context window in a Decoder-only model is more streamlined and efficient for real-time generation.

Step 2

Justify the preference using Scaling Laws.

Solution:
Decoder-only models have demonstrated highly predictable performance improvements (Scaling Laws) when increasing parameters and training data. This massive scale unlocks "emergent abilities," allowing a single Decoder-only model to perform zero-shot summarization highly effectively without needing the task-specific fine-tuning often required by smaller Encoder-Decoder setups.